AoEJ: Academy of Education Journal 
Vol. 10 No. 1 Tahun 2019 


Aplikasi Bootstrap Pada Analisis Regresi untuk Data Kecelakaan Kerja 


Toto Hermawan 

Pendidikan Matematika, Universitas Cokroaminoto Yogyakarta 
Jl. Perintis Kemerdekaan, Gambiran, Umbulharjo, Kota Yogyakarta 55161 

Email: toto.hermawan @ mail.ugm. ac.id 


ABSTRAK 

Untuk mengetahui hubungan antara dua variable atau lebih dapat digunakan analisis regresi. 
Pengertian analisis regresi sendiri adalah metode analisis data yang memanfaatkan hubungan 
antara dua variable atau lebih. Hal yang menjadi perhatian dalam analisis regresi salah satunya 
adalah standar error dari estimasi koefisien regresi. Dalam regresi sudah terdapat formula untuk 
mengestimasi standar error. Selain itu, standar error juga dapat diestimasi dengan metode 
resampling, yaitu bootstrap. Bootstrap sangat berguna sebagai altematif untuk estimasi parameter 
atau standar erromya ketika peneliti merasa ragu dapat memenuhi asumsi pada data mereka, 
misal data tidak berdistribusi normal. Selain itu bootstrap juga berguna ketika inferensi 
parametric memerlukan rumus yang sangat rumit untuk menghitung standar error (Widhiarso, 
2012). Dalam tulisan ini akan dibandingkan estimasi standar error yang diperoleh melalui 
formula yang sudah ada dengan estimasi standar error yang diperoleh melalui resampling 
bootstrap. 

Kata kunci: Analisis Regresi, Metode resampling, Standar Error , Estimasi Koefisien Regresi, 
Bootstrap, program R 


ABSTRACT 

To find out the relationship between two or more variables, regression analysis can be used. The 
definition of regression analysis itself is a data analysis method that utilizes the relationship 
between two or more variables. One concern in regression analysis is one of them is the standard 
error of estimation of the regression coefficient. In a regression there is already a formula for 
estimating standard errors. In addition, the standard error can also be estimated by the resampling 
method, which is bootstrap. Bootstrapping is very useful as an alternative to estimating 
parameters or standard errors when researchers feel hesitant to meet the assumptions in their 
data, for example the data are not normally distributed. In addition, bootstrapping is also useful 
when parametric inference requires a very complicated formula for calculating standard errors 
(Widhiarso, 2012). In this paper we will compare the standard error estimates obtained through 
existing formulas with the standard error estimates obtained through bootstrap resampling. 

Keywords: Regression Analysis, Resampling Method, Error Standards, Regression Coefficient 
Estimation, Bootstrap, R program 

PENDAHULUAN 

Analisis regresi adalah metode analisis data yang memanfaatkan hubungan antara dua 
variable atau lebih. Secara umum, tujuan dari analisis regresi adalah: 
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a. Menyelidiki pola hubungan antara variabel prediktor dan variabel respon. Untuk 
melakukannya dapat dilakukan dengan membuat diagram pencar. 

b. Mengestimasi nilai pada variabel respon berdasarkan nilai variabel prediktor yang dimiliki. 

c. Menyelidiki variabel prediktor yang mana saja yang berpengaruh secara signifikan terhadap 
variabel respon. 

Pada tahap estimasi koefisien parameter regresi, perhatian tertuju pada standar error dari 
estimator tersebut. Untuk mengestimasi standar error dari estimator parameter, dalam analisis 
regresi terdapat formula yang closed-form untuk menghitungnya. Pada beberapa kasus, 
seringkali tidak terdapat formula tersebut sehingga digunakan metode resampling bootstrap. 
Dalam paper ini akan digunakan formula biasa dan metode resampling bootstrap untuk 
menghitung standar error. Selanjutnya akan dibandingkan untuk mengetahui apakah keduanya 
memberikan basil yang berbeda atau tidak. Data yang digunakan dalam studi kasus yang 
dilakukan adalah data tentang kecelakaan kerja. 


PEMBAHASAN 
1. Analisis Regresi Linear 

Pembahasan akan dimulai dari model klasik regersi linier yang dibahas Legendre dan Gauss 
early pada tahun 1900a[i monurut (Efron, 1993). Data set x untuk model regresi linear dimana 
terdapat n buah observasi didefinisikan sebagai berikut: 

Cj = (li Ciij Cij,, Cjp) adalah vektor kovariat atau prediktor, sedangkan yi adalah bilangan real 
yang menyatakan variabel responnya. Banyaknya variabel prediktor dinyatakan dengan p. 

Model regresi linear dinyatakan sebagai berikut 

u ^ ^ ■ * k | . a ra^ at i 

» CV."X ■ i' ■ ■lj-i’. ■ ■ ■ I »■ 1 I J V 

Vektor parameter regresi p) tidak diketahui nilainya dan akan diestimasi 

berdasiirkan x. Error i diasumsikan sebagai sampeJ random dari suatu distribusi, misal E, dengan 

E( i) = 0. 
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Berdasarkan persamaan (2) diperoleh harga harapan untuk yi jika diketahui Ci adalah 
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Untuk n buah sampel random, model regresi (2) dapat ditulis sebagai berikut 
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Estimator untuk dapat diperoleh melalui metode kuadrat terkecil. Jika S menyatakan jumlah 
kuadral djiri triror, maka 

n 

S = ^ef =__ = (y-c ) (y-c ) 

i=i 

= y'y yc -(c )y + (c )(c ) 

= yy-(c )y-(c ) y + (c ) (c ) 

= yy-2(c ) y + (c ) (c ) 


dS 


Jika S diturunkan terhadap dan disamadengankan nol diperoleh 

= 0 -2c y + 2c c =0 

a 

2c c = 2c y 

^ = _ ^6) 

j-Ji. 

Untuk mengetahui keakuratan estimator |5 di atas dapat dilakukan dengan menghitung standar 

errornya. Didefinisikan matriks G sebagai berikut 

C = (7) 
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I 

Variansi dari estimator p atUitan 

var(p) = var((c'c)“^c'y) 

= (Cc*c) c') var(y) ((c c) “' c')' 

= ((c'c)“^c')var(y)(c(ccr^^ 

Karena var(y) = rp l, dimana I adalah matriks identitas, maka 
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Sehingga standar error elemen ke-j dari vektor |5 adalah 
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dimana adalah elemen diagonal ke-j dari G'^ (G invers). 
Dalam prakteknya, p dapat diestimasi dengan 
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(Efron, 1993) 

Estimator di atas tcrmasuk estimator yang bias. Oleh karena itu seringkali digunakan 
estimfitor berikut 
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Jadi estimasi standar error dari p. adalah 
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Bootstrap pada Analisis Regresi Linear 
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Model probabilitas P -» X untuk regresi linear, sebagaimana pada persamaan (2) dan (3), 
mempunyai dua komponen, yaitu: 

P = ( ,F) (12) 

Keduanya adalah parameter yang perl a diestimasi. Estimasi untuk telah diperoleh melalui 
metode kuadrat lerkecil, yaitu |5. Jika |5 telah diketahui, maka bisa dihitung estimasi antuk error 
yaitu 
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Karena e yang diestimasi adalah sejumlah n, maka distribusi empiris dari e adalah 


1^,4^14 1,11 y ^ L' ^4 4. k] 

itr — = afc : i — m > Z^f /ill 

^ a E ri 


r;.... ( 14 ) 




Untuk melakukan bootstrap pada analisis regresi, diambil sanipel berjumlah n secara random 
dengan pengembalian dari error estimasi * = ( iie;,---, [i). Dari * yang diperoleh dihitung 
variabel respon bootstrap sebagai berikut 

'^illlrai r ^ ■ bt nd*B 

Vj =C|p V'‘.r = , _ (15) 

Jika data ash adalah Xj = (Cj.yJ (lihat persamaan (1)), maka data hasil bootstrap adalah X* = 
(xJ.Xj,-" ,x;‘i) dimanax^ = Ccj.y^), 

Jadi model regresi bootstrap-nyii a.dalah 

'Zi (16) 

dimana E( ") = 0 dan var( I'*) = p, Jadi E(yn = Cjp* dan var(yj*) =cp, Dari data hasil 

B ^ 

bootstrap tersebut dapat dihitung estimasi parameter jegresr bootstrap, yaiia |5 sebagai berikut 
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Cara untuk iuemperoleh estimasi di atas analog dengan cara pada bagian 2. Variansi dari (J 
adalah 
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Karena varfy"^) = pi, dimana I adalah matriks identitas, maka 
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Sehingga standar error elemen ke-j dari vektor p adalah 
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Jika diperhatikan temyata persamaan (19) sama dengan persamaan (9) Jadi dapat dikatakan 
bahwa untuk mengestimasi standar error dari bootstrap dapat dilakukan dengan formula untuk 
mencari standar error yang biasa. Yang membedakannya hanyalah nilai p-nya saja. 

Selain itu, standar error dari koefisien parameter regresi dapat pula dieslimasi dengan langkah- 
langkah sebagai berikut; 

a. Diambil sampel bcrjumlah n secara random dengan pengembalian dari error estimasi 

*= ( * p* ... "'i 

\ "■ If *^2' ' lly' 

b. Dari e’ yang diperoleh dihitung variabel respon bootstrap, yaitu 
Vj* = Qp + 6* : i=l,2,-",n, sehingga dimiliki set data X*= (xJ,X 2 ,”-,X^i) dimana 


Xi =(ci,y?). 

c. Berdasarkan set data bootstrap yang diperoleh, yaitu x , dihitung koefisien pai'ameter 
regresi dengan rumus = (C c) “ ^ c'y* 

d. Langkah nomor a sampai c diulang sebanyak B kali sehingga dimiliki B buah nilai p . 


e. 


Dihitung standar error dari koefisien parameter regresi melalui hasil bootstrap pada nomor 
d, yaitu; 
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3. Studi Kasus 


j = 0,l,2,-",p 


Dalam studi kasus ini digunakan data tentang jumlah kecelakaan kerja pada suatu 
perseroan (PT). Pengamatan dilakukan terhadap 43 orang karyawan PT tersebut. Untuk setiap 
karyawan dilakukan pencatatan jumlah jam kerja dalam satu tahun, divisi dimana karyawan 
tersebut ditempatkan, dan jumlah kecelakaan kerja yang dialami dalam satu tahun. Pada PT 
tersebut, terdapat empat buah divisi yaitu produksi (frame), weaving (penenunan), quality 
control, dan gudang/logistik. Berdasarkan data yang terkumpul, dapat dilakukan analisis regresi 
linear untuk menyelidiki pengaruh jam kerja dan divisi terhadap jumlah kecelakaan kerja. 

Diperoleh model regresi estimasi sebagai berikut: 
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Berdasarkan persamaan di atas diketahui bahwa koefisien parameter regresi variabel jam 
bernilai positif walaupun nilainya cukup kecil. Artinya penambahan jam kerja yang banyak akan 
menambah jumlah kecelakaan kerja. Selain itu diperoleh koefisien regresi untuk ketiga variabel 
dummy bernilai negatif. Artinya divisi yang menjadi reference category, yaitu produksi (frame), 
memiliki angka kecelakaan kerja yang paling tinggi dibandingkan jumlah kecelakaan kerja pada 
divisi lain. Pertanyaan selanjutnya adalah seberapa akurat estimator koefisien parameter regresi 
di atas? Untuk menjawabnya maka dihitung standar error untuk setiap estimator. 


Tabel 1. Estimasi Parameter Regresi dan Standar Error 


Parameter 

Estimasi 
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i II 
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_J_ 

-1,5804 

1,1784 

1,2373 


Pada kebanyakan paket program, estimasi untuk standar error yang biasa dipakai adalah 
yailu estimator yang tak bias. Berdasarkan estimasi parameter di atas dapat diperoleh qq plot 
residual sebagai berikut: 

QQ Plot Residualnya 



Dapat diketahui bahwa residual mendekati distribusi normal sehingga asumsi normalitas dalam 
analisis regresi terpenuhi. 

Untuk kasus regresi linear, terdapat formula yang closed-form untuk mengestimasi 
standar error. Berdasarkan tabel di atas, diperoleh nilai estimasi standar error yang cukup kecil. 
Jadi dapat dikatakan bahwa estimator koefisien regresi cukup akurat. Seandainya tidak terdapat 
formula yang closed-form dapat dilakukan bootstrap untuk mengestimasi standar erromya, Yang 
pertama dilakukan adalah menghitung residual berdasarkan nilai koefisien regresi yang 
diperoleh. Berdasarkan residual tersebut dilakukan pengambilan sampel secara random dcrtgan 
pengembalian, namakan *. Sampel yang terambil digunakan untuk menghitung = Cjp + j", 
Berdasarkan nilai y* yang diperoleh dihitung nilai estimasi parameter regresi yang baru. Jika 
dilakukan iterasi sebawyak 100 kali terhadap proses tersebut diperoleh estimasi untuk standar 
error adalah: 
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Tabel 2. Estimasi Parameter Regresi dan Standar Error Menggunakan Bootstrap 


Parameter 

Estimasi 
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Diperoleh pula qq plot untuk residual bootstrap sebagai berikut: 

QQ Plot Residualnya 
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Ternyata diperoleh bahwa asumsi normalitas residual tetap terpenuhi. Jika antara tabel 1 dan 
tabel 2 dibandingkan ternyata diperoleh hasil yang tidak jauh berbeda. Semakin banyak iterasi 
yang dilakukaii maka hasil yang diperoleh akan mendekati hasil estimasi standar error 
yang diperoleh dengan cara biasa. Secara matematis dapat ditulis 

(Pj) ^ se 


KESIMPULAN 

Berdasarkan hasil pada bagian 4 diperoleh kesimpulan bahwa jumlah jam kerja dan 
jumlah kecelakaan kerja yang terjadi memiliki korelasi yang positif, artinya penambahan jam 
kerja diperkirakan akan menambah jumlah kecelakaan yang terjadi. Oleh karena itu, jika jumlah 
kecelakaan kerja yang terjadi berada pada kisaran yang mengkhawatirkan (cukup tinggi), maka 
salah satu solusi yang dapat dilakukan adalah dengan mengurangi jam kerja karyawan. Selain itu 
diperoleh pula kesimpulan bahwa angka kecelakaan kerja paling tinggi terjadi pada divisi 
produksi (frame). Oleh karena itu, divisi tersebut perlu mendapatkan perhatian khusus dalam hal 
penanggulangan kecelakaan kerja. 

Berkaitan dengan analisis data, estimasi standar error menggunakan bootstrap 
mempunyai hasil yang tidak jauh berbeda dari estimasi menggunakan formula yang sudah ada. 
Seandainya tidak terdapat formula yang closed-form untuk mengestimasi standar error, maka 
bootstrap merupakan salah satu altematif yang dapat dipilih. Penerapan bootstrap pada bagian 4 
di atas merupakan salah satu dari sekian cara penerapan bootstrap untuk analisis regresi. 
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